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LOD 的 网 络 结构 分 析 与 可 视 化 


夏 立 新 谭 K 


(华中 师范 大 学 信息 管理 学 院 武汉 430079) 


摘要 : 【 目的】 对 关联 开放 数据 (LOD) 进 行 结构 特征 分 析 , 利用 分 析 结 果 指 导 关 联 数据 的 组 织 实 践 。[ 方法 ] 3 


过 度 分 布 、 平 均 路 径 长 度 、 聚 类 系数 等 指标 描述 LOD 网 络 结构 ,对 比 复杂 网 络 理 论 中 的 两 个 基本 性 质 : 无 标 度 
特性 和 小 世界 效应 。[ 结果 ] LOD 整体 网 络 结构 具有 近似 无 标 度 网 络 的 需 率 分 布 特征 ,图 书馆 学 、 情 报 学 领域 子 
网 具有 相对 均匀 的 指数 分 布 特征 ,两 网 同时 具有 短 平 均 路 径 长 度 和 高 聚 类 系数 的 小 世界 效应 。[ 局 限 】 缺乏 对 关 
键 节点 的 多 权重 赋值 。[ 结论 ] LOD 的 小 世界 特性 能 优化 检索 效率 ， 而 无 标 度 特性 会 降低 整个 网 络 的 稳定 性 。 


关键 词 : LOD 复杂 网 络 ”网 络 结构 ”可 视 化 
分 类 号 : G203 


1 引 Ë 


越 来 越 多 的 数据 拥有 者 将 他 们 的 数据 以 关联 数据 
的 形式 发 布 到 网 络 上 , 形成 一 个 全 球 化 的 数据 空间 ， 
即 数据 网 络 (Web of Data) 趾 。 相 对 于 传统 的 文档 网 络 ， 
数据 网 络 更 加 结构 化 , 将 简单 的 超 链 接 变 成 了 复杂 的 
关系 网 , 使 Web 上 的 数据 能 够 被 发 现 和 检索 , 并 被 人 
和 机 器 所 理解 。2014 年 8 H, W3C 关联 开放 数据 项 目 
发 布 了 最 新 的 关联 开放 数据 云图 (Linked Open Data 
Cloud, LOD Cloud)， 为 数据 网 络 建立 了 一 个 视觉 模型 ， 
该 图 绘制 的 开放 关联 数据 集 由 最 初 的 几 十 个 增长 到 几 
百 个 , 内 容 涵盖 媒体 、 政 府 、 出 版 物 、 地 理 、 生 命 科 
学 、 跨 领域 、 用 户 生成 内 容 和 社交 网 络 8 MR, 
LOD 云图 将 不 同 领域 的 关联 开放 数据 资源 整合 为 一 
个 互联 的 网 络 并 将 其 可 视 化 ,从 情报 学 的 视角 来 看 ， 
这 是 继 引 证 、 共 词 、 合 著 等 典型 知识 网 络 之 后 的 一 种 
新 型 网 络 型 态 。 那么 ,LOD 网 络 具 有 怎样 的 结构 属性 ? 
各 数据 集 之 间 的 连接 是 否 有 特殊 规律 与 特征 ?对 于 此 
类 问题 的 研究 ， 有 助 于 认识 和 评价 关联 数据 的 发 展现 
状 , 指导 实践 中 关联 数据 的 发 布 、 互 联 和 检索 。 


据 集 为 基本 单元 对 整个 关联 数据 网 络 结构 进行 研究 。 
国外 已 有 一 些 相关 研究 ，Schmachtenberg 等 统计 了 这 
些 年 关联 开放 数据 集 的 增长 和 互联 认为 关联 开放 数 
据 网 络 已 经 由 以 DBpedia 为 核心 的 结构 转化 为 更 加 分 
散 的 非 中 心性 结构 , 关联 数据 在 数量 以 几何 级 增长 的 
同时 ， 内 容 也 逐步 多 元 化 发 展 01。Anuer 等 通过 统计 关 
联 数 据 集 有 多 少 有 效 的 出 入 链接 来 评价 数据 集 的 质 
E, 统计 过 程 中 经 常 遇 到 运行 中 断 、 限 制 获取 和 非 标 
准 SPARQL 终端 等 问题 , 因此 他 们 认为 现 有 关联 数据 
统计 数字 过 于 乐观 , 网 上 实际 可 用 的 关联 数据 集 比 其 
统计 数据 要 低 一 个 数量 级 5 。Campinas 等 基于 语义 网 
搜索 引擎 Sindice, 对 关联 数据 集中 本 体 、 谓 词 、 字 符 
EA URI 等 数据 进行 统计 ， 为 评价 实体 导向 的 语义 搜 
索 系统 提供 数据 支持 由。Bizer 等 通过 对 微 数据 、 微 格 
式 和 RDFa 三 种 标记 方法 的 利用 率 进行 比较 分 析 ， 展 
示 网 页 中 结构 化 数据 的 分 布 和 发 展 (™1。 

上 述 文献 从 不 同 角度 对 关联 数据 集 进行 统计 和 分 
析 , 一 定 程 度 上 描述 了 关联 数据 网 络 的 发 展现 状 。 关 
联 数据 的 RDF (Resource Description Framework) 数 据 
模型 ， 使 其 拥有 典型 的 网 络 拓扑 结构 特征 。 本 文 利 用 


目前 国内 对 关联 数据 的 研究 主要 集中 在 发 布 技 
术 ” 中 互联 方法 "和 资源 集成 等 方面 , 尚 无 以 数 


复杂 网 络 理论 中 度 分 布 、 平 均 路 径 长 度 、 聚 类 系数 等 
拓扑 性 质 描 述 关 联 开放 数据 的 结构 ， 从 网 络 联系 的 角 
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度 分 析 如 何 有 效 组 织 关联 数据 ,揭示 隐 仿 在 结构 表象 
下 的 潜在 关系 。 


2 复杂 网 络 基本 性 质 


(1) 无 标 度 特性 

网 络 的 度 分 布 是 刻画 无 标 度 网 络 的 重要 参数 。 ER 
随机 网 络 的 度 分 布 近似 为 泊 松 分 布 , 而 大 部 分 复杂 区 
络 度 分 布 具 有 短 率 形式 。 一 般 认 为 度 分 布 服 从 窜 率 分 
布 并 且 寡 指数 r 和 3 的 网 络 是 无 标 度 网 络 ， 这 种 性 质 也 
称 为 无 标 度 特性 。 网 络 的 无 标 度 特性 一 般 按照 其 度 、 
出 度 和 入 度 分 别 考虑 。 人 们 对 不 同 领域 的 现实 网 络 研 
究 发 现 , 包括 万 维 网 和 引文 网 络 在 内 的 许多 网 络 节 点 
度 分 布 都 满足 客 率 分 布 '51。 

(2) 小 世界 网 络 

网 络 的 平均 路 径 长 度 , 是 指 所 有 可 达 节 点 对 之 间 
最 短路 径 的 加 权 平 均值 ; 网 络 的 平均 聚 类 系数 是 指 所 
有 节点 聚 类 系数 的 平均 值 。 与 具有 相同 节点 数 和 平均 
度 的 随机 网 络 相 比 , 既 具 有 较 短 的 平均 路 径 长 度 ,又 
具有 和 较 高 的 聚 类 系数 的 网 络 称 之 为 小 世界 网 络 071。 


3 ”数据 和 方法 


3.1 数据 采集 

本 文 的 数据 来 自 Datahub ? 一 个 基于 数据 管理 
系统 CKAN 的 免费 数据 管理 平台 。Datahub 对 其 中 近 
9 千 多 个 数据 集 进行 分 组 和 标记 标签 。 其中， 以 关联 开 
放 数 据 形式 发 布 , 并 且 与 其 他 数据 集 有 连接 的 数据 集 
分 组 为 LOD Cloud Group, 该 组 也 是 LOD 云图 中 数据 
集 的 主要 来 源 。 将 LOD Cloud 整 组 数据 集 作 为 研究 对 
Z, 利用 datahub2void 软件 获取 数据 集 的 VoID FR., 
提取 日 期 截止 到 2015 年 4 月 28 日 。 

在 关联 数据 中 , 不 仅 每 个 数据 集 内 部 存在 着 链接 ， 
数据 集 之 间 也 存在 着 联系 。 一 个 数据 集 发 布 后 ,应 该 
确保 有 外 部 的 RDF 链 接 指 向 这 个 数据 集 的 URIS， 这样 
新 数据 集 才能 被 RDF 浏 览 器 和 疏 虫 发 现 , 才能 补充 现 
有 数据 集 的 资源 请]。 本文 用 一 个 节点 代表 一 个 数据 集 ， 
节点 之 间 的 连 线 即 数据 集 之 间 的 链接 RDF 链 接 是 有 
向 的 , 故 关联 开放 数据 网 络 是 一 个 有 向 网 络 。 本 文 将 
LOD Cloud 组 的 数据 集 构成 的 网 络 称 为 LOD Cloud, 
其 中 再 有 Publication 标 签 的 数据 集 是 由 图 书馆 数据 集 、 
科学 出 版 物 、 会 议 、 大 学 读物 、 引 文 数据 集 组 成 ,， 笔 


有 一 现 代 图 书 情报 技术 


者 将 其 称 为 图 书馆 学 、 情 报 学 领域 的 关联 开放 数据 ， 
提取 为 Publication 网 络 进行 对 比分 析 。Publication 子 网 
络 的 连 线 定义 为 子 网 内 部 节点 之 间 的 连 线 。 具 体 统计 
数据 如 表 1 所 示 : 

表 1 LOD Cloud 和 Publication 网 络 


网 络 WAN) 有 向 线 (M) 平均 度 (9 
LOD Cloud 258 958 3.71 
Publication 79 521 6.67 


32 分析 方法 

(1) 指标 计算 

累积 度 分 布 

有 向 网 络 的 入 度 分 布 P(k"”) 是 网 络 中 随机 选取 的 一 个 节 
点 的 入 度 为 k" 的 概率 。 出 度 分 布 P(k”") 为 网 络 中 随机 选取 
的 一 个 节点 的 出 度 为 ke" 的 概率 。 度 分 布 P(k) 表 示 随 机 选取 
的 节点 度 为 k 的 概率 。 为 了 更 清晰 展示 度 分 布 图 ,本文 使 用 
累积 度 分 布 Pk 来 绘制 度 分 布 图 它 表示 的 是 度 不 小 于 k 的 节 
点 的 概率 分 布 。 


Py = > PK’) (1) 


Kk 
BREDARED, FP P(K)ec k 7, 那么 累积 度 分 
Jh SEP, ARA yl 193: 


oo 
Py o Y kf oc k Q) 
k'-k 


如 果 度 分 布 为 指数 分 布 , P(k) oce V, 其 中 Kk 20, 那么 
累积 度 分 布 函数 P, 也 是 指数 型 的 ， 且 具有 相同 的 指数 : 


oo 
Pk c £ ek /Kk ac e V (3) 
k'-k 


@) 平 均 路 径 长 度 
网 络 中 任意 两 个 节点 i 和 j 之 间 的 距离 dj, 定义 为 连接 
这 两 个 节点 的 最 短路 径 上 的 边 数 。 网 络 的 平均 路 径 长 度 L 
定义 为 任意 两 个 节点 之 间 的 距离 的 平均 值 ， 即 : 
L-4— — Yd; (4) 
5 NND izj 
网 络 平均 路 径 长 度 的 概念 严格 来 说 只 对 连通 图 才 是 有 
限 值 ， 但 很 多 现实 网 络 都 是 不 连通 的 ， 本 文采 用 有 向 网 络 的 
经 典 算法 , Dijkstra 算法 。 对 于 同等 规模 的 随机 图 网 络 , 设 网 络 
的 节点 数 为 N、 平 均 度 为 k， 那 么 该 网 络 的 平均 路 径 长 度 为 : 
Liandom ~ In N/In k (5) 
@ 平 均 聚 类 系数 
假设 网 络 中 的 一 个 节点 i 有 ki 条 边 将 它 与 其 他 节点 相 
i, 这 ki 个 节点 就 称 为 节点 i 的 邻居 ， 邻居 节点 之 间 实 际 存 
在 的 边 数 Ei 和 这 kk; 个 节点 之 间 最 多 可 能 的 边 数 ki(ki-1)/2 之 
比 就 定义 为 节点 1 的 聚 类 系数 C 整个 网 络 的 聚 类 系数 C 就 


是 所 有 节点 i 聚 类 系数 Ci 的 平均 值 ， 即 : 
| N OE, 

i 6 

NSE k;(k; -1) ( ) 


对 于 节点 数 为 N、 平 均 度 为 k 的 随机 图 网 络 , 平均 聚 类 
系数 为 : 


Crandom ~ BA 0) 

(2) 相关 分 析 

本 文 研究 的 变量 为 定 序 变 量 , 通过 计算 斯 皮尔 曼 
(Spearman) 等 级 相关 性 系数 分 析 变 量 之 间 的 相关 性 ， 相 
关 性 系数 p 在 0.00+0.30 为 微 相关 ， 在 +0.30~+0.50 HK 
相关 , 在 +0.50~+0.80 之 间 为 显著 相关 , 在 +0.80~+1.00 之 
间 为 高 度 相 关 , 显著 性 水 平 p 二 0.05 具有 统计 学 意义 

(3) 回归 分 析 

为 判定 指标 的 分 布 形 态 , 在 Matlab 中 绘制 上 述 数 
据 的 散 点 图 , 利用 Curve Fitting Tool 添加 拟 合 曲线 。 
根据 SSE( 误 差 平方 和 , 趋向 0 最 好 )、R-Square( 确 定 系 
数 , 趋向 1 最 好 )、Adjusted R-Square( 调 整 确定 系数 ， 趋 
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向 1 最 好 ) 和 RMSE( 标 准 差 , 越 向 0 最 好 ) 选 
合 函 数 , 依据 拟 合 函数 判定 指标 分 布 规律 。 
(4) 可 视 化 
利用 Gephi 绘制 LOD Cloud 和 Publication 网 络 
的 结构 图 利用 不 同 颜 色 的 节点 代表 不 同 领 域 的 数据 
集 , 节点 的 大 小 代表 度 的 大 小 ， 有 向 连 线 代表 数据 集 
之 间 的 连接 , 连 线 的 粗细 代表 连接 的 权重 。 


4 结果 分 析 


41 度 与 相关 性 
(1) 入 度 与 出 度 
本 文采 集 的 数据 显示 , LOD Cloud 网 络 89% 的 节 


择 最 佳 拟 


点 度数 不 为 零 , Publication 子 网 中 也 有 77% 的 节点 度 
ARNE, 这 一 方面 说 明 关 联 开 放 数 据 集 并 不 孤单 ， 


另 一 方面 也 说 明 关 联 数据 集 之 间 的 连接 还 有 很 大 的 发 
展 空间 。 表 2 和 表 3 列 出 了 两 个 网 络 中 出 度 和 入 度 前 
10 的 数据 集 。 


表 2 LOD Cloud 入 度 和 出 度 前 10 的 数据 集 


排名 数据 集 入 度 排名 数据 集 出 度 
1 DBpedia 140 1 DBLP (RKBExplorer) 35 
2 GeoNames 37 2 ePrints (RKBExplorer) 31 
3 ePrints (RKBExplorer) 27 3 ACM (RKBExplorer) 31 
4 DBLP (RKBExplorer) 27 4 ECS Southampton (RKBExplorer) 31 
5 ACM (RKBExplorer) 26 5 DBpedia 29 
6 Freebase 24 6 Wiki (RKBExplorer) 29 
7 CiteSeer (RKBExplorer) 24 7 CiteSeer (RKBExplorer) 27 
8 Wiki (RKBExplorer) 24 8 RAE2001 (RKBExplorer) 27 
9 ECS Southampton (RKBExplorer) 24 9 KISTI (RKBExplorer) 25 
10 OAI (RKBExplorer) 23 10 Newcastle (RKBExplorer) 25 

K3 Publication 入 度 和 出 度 前 10 的 数据 集 

排名 数据 集 AE 排名 数据 集 出 度 
1 ePrints (RKBExplorer) 26 1 ePrints (RKBExplorer) 30 
2 ACM (RKBExplorer) 25 2 DBLP (RKBExplorer) 30 
3 DBLP (RKBExplorer) 25 3 ACM (RKBExplorer) 28 
4 OAI (RKBExplorer) 23 4 ECS Southampton (RKBExplorer) 27 
5 CiteSeer (RKBExplorer) 23 5 CiteSeer (RKBExplorer) 26 
6 Wiki (RKBExplorer) 23 6 Wiki (RKBExplorer) 26 
7 RAE2001 (RKBExplorer) 22 7 RAE2001 (RKBExplorer) 25 
8 ECS Southampton (RKBExplorer) 22 8 KISTI (RKBExplorer) 24 
9 dotAC (RKBExplorer) 21 9 Newcastle (RKBExplorer) 24 
10 KISTI (RKBExplorer) 21 10 LAAS (RKBExplorer) 22 
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其 中 DBpedia 以 140 的 入 度 排名 第 一 , 也 就 是 说 
它 被 LOD 网 络 中 大 部 分 的 数据 集 指向 , 说 明 它 具有 让 


ChinaXiv 合 作 期 刊 


研究 文 


节点 与 之 关联 能 快速 加 入 关联 数据 网 络 的 最 大 连 


富 的 数据 资源 并 且 涉 及 领域 广泛 ,对 于 后 发 布 的 数据 
集 是 一 个 可 信任 的 链接 资源 。GeoNames 作为 全 球 地 
理 数 据 库 同样 具有 很 高 的 人 度 。 这 种 节点 更 倾向 与 那 
些 拥 有 较 高 连接 度 的 “大 ”节点 相连 的 现象 , 表明 关联 
开放 数据 网 络 具有 “优先 连接 ”特性 。 然 而 DBpedia 和 
GeoNames 的 出 度 相 比 人 度 而 言 则 小 很 多 , 这 与 它们 
的 发 布 时 间 较 早 有 关 。 同 时 反映 了 关联 数据 网 络 存在 
的 一 个 普遍 问题 , 很 多 关联 数据 集 在 发 布 之 后 缺少 维 
F, 没有 及 时 链接 新 发 布 的 数据 集 ， 失 效 的 链接 也 没 
有 及 时 修订 ,从 而 降低 了 整个 LOD 网 络 的 连通 性 。 

表 3 中 近 一 半 的 数据 集 也 出 现在 表 2 的 排名 中 ， 
意味 着 Publication 中 高 度数 的 节点 相 比 网 络 其 他 领域 
的 核心 节点 , 度数 也 较 高 。 然 而 这 些 节 点 的 度数 在 表 3 
中 与 表 2 中 相差 并 不 大 , 也 就 是 说 Publication 中 高 度 
数 的 节点 连接 更 倾向 于 连接 领域 内 节点 ,在 连接 整个 
网 络 其 他 节点 上 的 贡献 并 不 大 。 

(2) 入 度 与 出 度 相关 性 

整个 LOD 网 络 节点 的 和 人 度 和 出 度 的 Spearman 相 
关 性 系数 p=0.6546,， 显著 性 水 平 p=5.98x10™ < 0.05, 
即 关 联 数据 集 的 出 度 和 入 度 显 著 相关 。 表 3 中 的 排名 
显示 Publication 网 络 中 入 度 和 出 度 排名 较 高 的 节点 
很 多 是 一 样 的 ， 即 核心 节点 同时 具有 较 高 的 入 度 和 
出 度 。 

Publication 网 络 节 点 和 人 度 和 出 度 的 Spearman 相关 
性 系数 p=0.8939， 显 著 性 p=1.Sx10 导 一 0.05， 即 图 情 领 
域 数 据 集 的 出 度 和 入 度 高 度 相 关 。 人 和 人 度 与 出 度 的 正 相 
关 说 明 关 联 数据 集 倾 向 于 连接 其 他 数据 集 更 常 连接 的 
42 累计 度 分 布 

从 图 1 的 拟 合 情 况 看 , LOD Cloud 的 累积 入 度 、 累 
耻 出 度 和 累积 度 分 布 都 近似 寡 率 分 布 且 震 指 数 193, 
可 以 认为 LOD Cloud 网 络 具有 无 标 度 网 络 特性 。 大 部 
分 的 节点 (28%) 度 数 为 1, 分布 尾部 稀少 , 即 存在 少量 
节点 被 大 多 数 节点 连接 。 具 有 这 样 结构 特征 的 网 络 ， 
即使 局 部 节点 失效 , 也 不 会 影响 整个 网 络 的 稳定 性 ， 
但 高 度数 节点 失效 , 会 导致 整个 网 络 非 常 脆弱 , 信息 
不 能 顺畅 流通 。 也 就 是 说 LOD Cloud 网 络 中 少数 最 受 
欢迎 的 节点 起 到 了 连接 大 部 分 节点 的 重要 作用 ,找到 
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这 些 

通 片 ,共享 更 多 资源 。 然 而 如 果 新 节点 都 倾向 与 高 度 
数 的 中 心 节 点 连接 , 一 旦 中 心 节 点 失效 ,可 破坏 整个 
网 络 的 连通 性 。 
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图 1 LOD Cloud 网 络 的 累积 度 分 布 与 拟 合 曲线 


图 2 显示 图 书馆 学 、 情 报 学 领域 子 网 的 累积 入 
度 、 累 积 出 度 和 累积 度 分 布 都 近似 指数 分 布 。 随 着 度 
的 增加 ， 累 积 概率 并 没有 急剧 减少 或 增加 ,意味 着 
Publication 网 络 的 度 分 布 相 对 均匀 。 这 样 的 网 络 结构 
具有 更 强 的 稳定 性 ,网络 连通 并 不 依赖 于 少数 度数 极 
高 的 节点 ， 即 使 局 部 节点 失效 ， 对 整个 网 络 连 通 性 影 
响 也 不 大 。Publication 度 分 布 并 未 继承 LOD Cloud 的 
无 标 度 特性 ， 说 明 关 联 开放 数据 各 领域 的 网 络 结构 存 
在 差异 性 ,并 不 是 简单 的 又 加 。 
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图 2 Publication 累积 入 度 、 累积 出 度 及 累积 度 分 布 


4.3 ”平均 路 径 长 度 和 聚 类 系数 

由 表 4 可 知 ， 两 个 网 络 的 平均 路 径 长 度 L 小 于 同等 
规模 的 随机 网 络 的 平均 路 径 长 度 Liswqom, 但 是 聚 类 系 
数 C 远 大 于 Ciswqom， 也 就 是 说 LOD Cloud 和 Publication 
具有 明显 的 小 世界 网 络 特征 。 短 平均 路 径 长 度 意 味 着 
即使 关联 开放 数据 集 不 断 增加 ,数据 集 之 间 的 距离 却 
很 近 , 这 样 的 结构 能 使 检索 时 间 加 快 。 高 聚 类 系数 表 
明 关 联 数据 的 连接 并 不 随机 ， 与 数据 集 A 相 连 的 两 个 
数据 集 B 和 C, 彼此 也 相连 的 可 能 性 很 高 。 这 样 的 结构 
使 描述 同一 实体 的 资源 互相 连接 ,丰富 了 描述 实体 的 
多 样 性 。 简 言 之 , 小 世界 特性 使 网 络 既 能 保证 快速 找 
到 数据 ， 又 能 保证 数据 的 丰富 性 ， 关 联 开放 数据 的 结 
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构 有 利于 提高 检索 效率 。 
RA 平均 路 径 长 度 和 聚 类 系数 


网 络 L C Lrandom Com 
LOD Cloud 2.40 0.2391 4.23 0.0143 
Publication 1.51 0.3138 2.30 0.0844 


5 可 视 化 分 析 


由 图 3 可 以 清晰 看 到 Publication 领域 数据 集 紧密 
聚集 在 一 起 ， 此 外 生命 科学 领域 数据 集 也 组 成 一 个 小 
型 的 连通 片 ， 其 他 领域 数据 集 则 没有 形成 明显 的 聚集 ， 
说 明 关 联 数据 集 在 科学 领域 互联 的 应 用 较 多 。 图 3 左 
上 部 媒体 领域 有 两 个 以 英国 BBC Music 和 Music 
Brainz 为 中 心 节点 的 星 型 拓扑 , 但 它们 都 未 和 美国 著 
名 媒体 New York Times 连接 , 三 者 之 间 的 最 短路 径 也 
是 通过 DBpedia 实现 ， 意 味 着 同一 领域 业界 巨头 发 布 
的 关联 数据 彼此 互 不 相连 的 原因 可 能 是 地 域 的 分 隔 。 
政府 领域 关联 数据 集 也 印证 了 这 点 , 除了 英国 政府 发 
布 的 几 个 数据 集 互相 有 连接 之 外 , 其 他 政府 数据 集 都 
各 自 孤 立 。 用 户 生成 内 容 和 社交 网 络 领 域内 的 数据 集 
也 是 完全 分 散 , 彼此 毫 无 联系 。 蜂 领域 的 数据 集 连 接 
较为 多 样 , 最 常见 的 是 与 地 理 的 数据 集 相 连 。 这 种 复 
杂 的 网 络 连接 意味 着 关联 数据 并 不 能 按照 数据 集 的 领 
域 划 分 层次 , 笔者 认为 要 使 关联 数据 更 为 紧密 ,需要 
连接 的 是 发 布 关联 数据 集 的 机 构 和 人 。 

有 研究 表明 ,数据 集 之 间 最 常用 的 连接 谓词 是 
owl:sameAs 和 rdfs:seeAlso， 用 于 连接 描述 同一 对 象 
的 两 个 资源 0。 图 书馆 学 、 情 报 学 领域 的 数据 多 为 书 
目 、 论 文 、 作 者 和 研究 机 构 ， 这 些 信息 在 各 数据 集中 
有 很 多 重复 ， 故 容易 形成 较 多 互联 , 形成 紧密 关联 。 
图 4 展示 了 Publication 中 高 度数 的 节点 更 倾向 与 高 度 
数 节点 互联 ,其 中 的 强 连通 片 是 由 利用 RKB Explorer 
发 布 的 数据 集 组 成 ,甚至 美国 国会 图 书馆 发 布 的 
LCSH 数据 集 也 没有 形成 这 样 大 的 连通 片 。RKB 
Explorer 应 用 的 底层 架构 使 用 一 致 引用 服务 
(Consistent Reference Services，CRS) 实 现 指向 同一 事 
物 的 URIs 的 连接 上 由 此 推断 关联 开放 数据 的 互联 
还 存在 技术 上 的 阻隔 中。 
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关联 开放 数据 网 络 结构 在 整体 层面 上 具有 近似 无 
标 度 网 络 的 索 率 分 布 特征 ,同时 具有 短 平 均 路 径 长 度 
和 高 平均 聚 类 系数 的 小 世界 特性 。 图 书馆 学 、 情 报 学 
领域 的 关联 数据 网 络 具有 相对 均匀 的 指数 分 布 特征 ， 
同时 具有 小 世界 网 络 特性 。 小 世界 网 络 的 共性 能 帮助 
关联 开放 数据 优化 检索 效率 ,然而 倾向 连接 高 度数 节 
点 的 趋势 会 使 整个 关联 数据 网 络 的 稳定 性 降低 ， 故 发 
布 数据 集 时 要 慎重 选择 数据 集 互联 。 关 联 数据 网 络 绪 
构图 显示 层级 结构 与 领域 内 容 并 无 关联 ,地域 和 技术 
的 不 同 是 关联 数据 网 络 连 接 不 紧密 的 重要 因素 。 

未 来 关联 开放 数据 的 网 络 结构 研究 可 以 进行 以 下 
工作 : 权重 是 非常 重要 的 统计 指标 ， 对 关键 节点 权重 
赋值 有 助 于 更 深 一 步 了 解 关 联 数据 网 络 的 结构 特性 
目前 对 网 络 结构 的 研究 还 停留 在 静态 的 统计 分 析 上 ， 
信息 的 结构 会 随 着 时 间 而 改变 , 新 的 数据 集会 产生 新 
的 属性 ， 关联 开放 数据 网 络 也 在 演化 , 对 演化 过 程 的 

研究 会 帮助 人 们 更 全 面 地 认识 关联 开放 数据 。 
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Analysis and Visualization of the LOD Network Structure 


Xia Lixin Tan Ying 
(School of Information Management, Central China Normal University, Wuhan 430079, China) 


Abstract: [Objective] This paper aims to analyze the structural features of Linked Open Data (LOD), and the results 
can be used to guide the organization of linked data in practice. [Methods] Describing LOD network with degree 
distribution, average path length, clustering coefficient and other indexes, this paper compares scale-free network and 
small-world network in the complex network theory. [Results] The structure of LOD network shows a power-law 
distribution, approximate the scale-free network. The Publication subnet of LOD shows a relatively homogeneous 
exponential distribution. Two networks both have a short average path length and high clustering coefficient. 
[Limitations] Lack of assigning key nodes to more weight. [Conclusions] Small-world phenomenon of LOD can 
optimize the retrieval efficiency, and scale-free feature will reduce the stability of the entire network. 
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